在原始文本中训练的语言模型(LMS)无法直接访问物理世界。 Gordon和Van Durme(2013)指出,LMS因此可能会遭受报告偏见的困扰:文本很少报告常见事实,而是关注情况的异常方面。如果LMS仅接受文本语料库的培训,并天真地记住当地的同时出现统计数据,那么他们自然会学会对物理世界的偏见。虽然先前的研究反复验证了较小尺度的LM(例如Roberta,GPT-2)放大了报告偏差,但在模型扩展时,这种趋势是否继续。我们从较大语言模型(LLM)(例如Palm和GPT-3)中从颜色的角度研究报告偏见。具体而言,我们查询llms对物体的典型颜色,这是一种简单的感知扎根的物理常识。令人惊讶的是,我们发现LLM在确定对象的典型颜色和更紧密地跟踪人类判断方面的表现明显优于较小的LMS,而不是过于适应文本中存储的表面图案。这表明,仅凭语言的大型语言模型就能克服以局部共发生为特征的某些类型的报告偏差。
translated by 谷歌翻译
我们引入了一种新的文化学习范式,以测量在推理过程中学习新颖单词的大型语言模型(LLMS)。特别是,我们通过用一个合成但合理的词代替关键概念词来重写Winograd风格的共同参考分辨率问题,该词必须理解该模型以完成任务。解决此任务需要模型来利用提示中给出的新单词的字典定义。这个基准介绍了单词获取,这是折磨llms已知的历时降解的一个重要方面。由于LLM在训练的那一刻及时被冻结,因此通常无法反映语言随着时间的变化方式。我们表明,与原始Winograd任务相比,LLM的准确性在我们的基准测试中从根本上降低,从而确定了当前模型的局限性,并提供了基准来衡量LLMS的未来改善LLMS进行内在学习的能力。
translated by 谷歌翻译
声带煎炸或吱吱作响的声音是指以不规则的发光开口和低音为特征的语音质量。它以各种语言发生,并且在美国英语中很普遍,不仅可以标记词组结局,还用于社会语言因素和影响。由于其不规则的周期性,吱吱作响的声音挑战自动语音处理和识别系统,尤其是对于经常使用吱吱作响的语言。本文提出了一个深度学习模型,以检测流利的语音中的吱吱作响的声音。该模型由编码器和经过训练的分类器组成。编码器采用原始波形,并使用卷积神经网络学习表示。分类器被实现为多头完全连接的网络,该网络训练有素,可检测吱吱作响的声音,发声和音调,最后两个用于完善吱吱作响的预测。该模型经过对美国英语说话者的言语的培训和测试,并由训练有素的语音家注释。我们使用两个编码器评估了系统的性能:一个是为任务量身定制的,另一个是基于最新的无监督表示。结果表明,与看不见的数据相比,我们表现最佳的系统的回忆和F1得分有所改善。
translated by 谷歌翻译
Strategic test allocation plays a major role in the control of both emerging and existing pandemics (e.g., COVID-19, HIV). Widespread testing supports effective epidemic control by (1) reducing transmission via identifying cases, and (2) tracking outbreak dynamics to inform targeted interventions. However, infectious disease surveillance presents unique statistical challenges. For instance, the true outcome of interest - one's positive infectious status, is often a latent variable. In addition, presence of both network and temporal dependence reduces the data to a single observation. As testing entire populations regularly is neither efficient nor feasible, standard approaches to testing recommend simple rule-based testing strategies (e.g., symptom based, contact tracing), without taking into account individual risk. In this work, we study an adaptive sequential design involving n individuals over a period of {\tau} time-steps, which allows for unspecified dependence among individuals and across time. Our causal target parameter is the mean latent outcome we would have obtained after one time-step, if, starting at time t given the observed past, we had carried out a stochastic intervention that maximizes the outcome under a resource constraint. We propose an Online Super Learner for adaptive sequential surveillance that learns the optimal choice of tests strategies over time while adapting to the current state of the outbreak. Relying on a series of working models, the proposed method learns across samples, through time, or both: based on the underlying (unknown) structure in the data. We present an identification result for the latent outcome in terms of the observed data, and demonstrate the superior performance of the proposed strategy in a simulation modeling a residential university environment during the COVID-19 pandemic.
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
权重规范$ \ | w \ | $和保证金$ \ gamma $通过归一化的保证金$ \ gamma/\ | w \ | $参与学习理论。由于标准神经净优化器不能控制归一化的边缘,因此很难测试该数量是否与概括有关。本文设计了一系列实验研究,这些研究明确控制了归一化的边缘,从而解决了两个核心问题。首先:归一化的边缘是否总是对概括产生因果影响?本文发现,在归一化的边缘似乎与概括没有关系的情况下,可以与Bartlett等人的理论背道而驰。(2017)。第二:标准化边缘是否对概括有因果影响?该论文发现是的 - 在标准培训设置中,测试性能紧密跟踪了标准化的边距。该论文将高斯流程模型表示为这种行为的有前途的解释。
translated by 谷歌翻译
我们采用变化性AutoEncoders从单粒子Anderson杂质模型谱函数的数据集中提取物理洞察。培训AutoEncoders以查找低维,潜在的空间表示,其忠实地表征培训集的每个元素,通过重建误差测量。变形式自动化器,标准自动化器的概率概括,进一步条件促进了高度可解释的特征。在我们的研究中,我们发现学习的潜在变量与众所周知的众所周知,但非活动的参数强烈关联,这些参数表征了安德森杂质模型中的紧急行为。特别地,一种潜在的可变变量与粒子孔不对称相关,而另一个潜在的变量与杂质模型中动态产生的低能量尺度接近一对一的对应关系。使用符号回归,我们将此变量模拟了该变量作为已知的裸物理输入参数和“重新发现”的kondo温度的非扰动公式。我们开发的机器学习管道表明了一种通用方法,它开启了发现其他物理系统中的新领域知识的机会。
translated by 谷歌翻译
对头部磁共振成像(MRI)检查的需求不断增长,以及全球放射科医生的短缺,导致在全球报告头部MRI扫描所花费的时间增加。对于许多神经系统疾病,这种延迟会导致发病率和死亡率增加。一种自动分解工具可以通过在成像时识别异常并确定这些扫描的报告优先级来减少异常检查的报告时间。在这项工作中,我们提出了一个卷积神经网络,用于检测$ \ text {t} _2 $加权的头部MRI扫描中临床上相关的异常。使用经过验证的神经放射学报告分类器,我们从两家英国两家大型医院进行了43,754张标记的数据集,以进行模型培训,并在800张测试集上证明了准确的分类(AUC下的区域(AUC)= 0.943),由800张扫描集进行了标签。神经放射学家团队。重要的是,当仅在一家医院接受扫描培训时,模型从另一家医院进行了扫描($ \ delta $ auc $ \ leq $ 0.02)。一项模拟研究表明,我们的模型将使异常检查的平均报告时间从28天到14天,并从两家医院的9天到5天,这表明在临床分类环境中使用了可行性。
translated by 谷歌翻译
The recent increase in public and academic interest in preserving biodiversity has led to the growth of the field of conservation technology. This field involves designing and constructing tools that utilize technology to aid in the conservation of wildlife. In this article, we will use case studies to demonstrate the importance of designing conservation tools with human-wildlife interaction in mind and provide a framework for creating successful tools. These case studies include a range of complexities, from simple cat collars to machine learning and game theory methodologies. Our goal is to introduce and inform current and future researchers in the field of conservation technology and provide references for educating the next generation of conservation technologists. Conservation technology not only has the potential to benefit biodiversity but also has broader impacts on fields such as sustainability and environmental protection. By using innovative technologies to address conservation challenges, we can find more effective and efficient solutions to protect and preserve our planet's resources.
translated by 谷歌翻译
A Digital Twin (DT) is a simulation of a physical system that provides information to make decisions that add economic, social or commercial value. The behaviour of a physical system changes over time, a DT must therefore be continually updated with data from the physical systems to reflect its changing behaviour. For resource-constrained systems, updating a DT is non-trivial because of challenges such as on-board learning and the off-board data transfer. This paper presents a framework for updating data-driven DTs of resource-constrained systems geared towards system health monitoring. The proposed solution consists of: (1) an on-board system running a light-weight DT allowing the prioritisation and parsimonious transfer of data generated by the physical system; and (2) off-board robust updating of the DT and detection of anomalous behaviours. Two case studies are considered using a production gas turbine engine system to demonstrate the digital representation accuracy for real-world, time-varying physical systems.
translated by 谷歌翻译